CrossCarry: Análisis de datos de un diseño cruzado mediante GEE

III Congreso y XIV Jornadas de Usuarios de R - Sevilla

Nelson Alirio Cruz

Universitat de les Illes Balears

Oscar Orlando Melo

Universidad Nacional de Colombia

Diseño Crossover

En el experimento del entorno de trabajo de Pitchforth et al. (2020) , hubo \(n = 288\) participantes. Estos participantes se dividieron en cuatro grupos: \(G1\), \(G2\), \(G3\) y \(G4\) y cada grupo tenía el mismo número de (72) participantes individuales. Los períodos duraron 2 semanas. Los cuatro tratamientos involucrados en este experimento son diseños de oficinas etiquetados como: A) Menú (basado en actividades), B) Control (plan abierto), C) Nido (oficinas de equipo) y D): Campus (plan abierto zonificado).

Grupo Periodo 1 Periodo 2 Periodo 3 Periodo 4
Grupo 1 B A D C
Grupo 2 C D A B
Grupo 3 D B C A
Grupo 4 A C B D

Ocupación de los escritorios

Efectos de arrastre

Efecto de arrastre

Vegas, Apa, y Juristo (2016) definen el arrastre como la persistencia del efecto de un tratamiento sobre tratamientos aplicados posteriormente. Es decir, si un tratamiento se aplica en un período determinado, entonces existe la posibilidad de un efecto residual o de arrastre que persiste en los siguientes períodos cuando se aplican otros tratamientos.

Cuando el efecto de arrastre de un tratamiento afecta al aplicado en el período siguiente, se conoce como efecto de arrastre de primer orden; si afecta al aplicado dos períodos antes, se conoce como efecto de arrastre de segundo orden, y así sucesivamente

Arrastre simple

Cuando el efecto de arrastre del tratamiento afecta de la misma manera sin importar el tratamiento aplicado posteiormente

La variable presentada en la gráfica fue analizada utilizando efectos de arrastre simples en el trabajo de Jankar y Mandal (2021) y Pitchforth et al. (2020).

Ecuaciones de estimación generalizadas

\[ E(Y_{ijk})=\mu_{ijk}, \qquad Var(Y_{ijk})=\phi V(\mu_{ijk})\nonumber \] \[ g(\mu_{ijk})=\pmb{x}_{ijk}^T\pmb{\beta} + f(\pmb{Z}_{ijk})+ \sum _{c=1}^ C f_c(\pmb{Z}_{ijk})\] \[ \pmb{V}(\pmb{\mu}_i)=\left[\pmb{D}(V(\mu _{ijk})^{\frac{1}{2}}) \pmb{R } (\pmb{\pmb{ \alpha}}) \pmb{D}({V}(\mu _{ijk})^{\frac{1}{2}})\right]_{ \sum _ {j= 1}^P n_{ij}\times \sum _{j=1}^P n_{ij}}\]

Toda la estimación se realiza por medio de Ecuaciones de estimación generalizadas semiparametricas, la metodología se puede ver en N. A. Cruz, Melo, y Martinez (2023).

\[ \pmb{\beta}^{(m+1)}=\left\{ \sum_{i=1}^n \pmb{X}_i^T \pmb{W}_i^{(m)} \pmb{X}_i \right\}^{-1} \left\{\sum_{i=1}^n\pmb{X}_i^T \pmb{W}_i^{(m)} \pmb{z}_i^{(m)} \right\} \]

Teorema 1

Suponiendo que la derivada \(r\)-ésima de \(f_1\) y \(f_2\) está acotada para algún \(r\geq 2\) y que el número de nudos \(m=m_n\rightarrow \infty\), pero \(\frac{m}{n}\rightarrow 0\) entonces \(\hat{\pmb{\beta}}-\pmb{\beta} \xrightarrow{n\rightarrow\infty}\pmb{0}\). Además, si \(m=O\left( n^{\frac{1}{(2^r+1)}}\right)\) entonces:

\[ \frac{1}{n}\sum_{i=1}^n \sum_{j=1}^{n_i} \left\{\sum_{b=1}^m \hat{\alpha}_{1b}s_b(\pmb{Z}_{1ijk})- f_1(\pmb{Z}_{1ijk})\right\}^2 = O\left(n^{-\frac{2r}{(2r+1)}}\right) \]

\[ \frac{1}{n}\sum_{i=1}^n \sum_{j=1}^{n_i} \left\{\sum_{b=1}^m \hat{\alpha}_{1b}s_b(\pmb{Z}_{2ijk})- f_2(\pmb{Z}_{2ijk})\right\}^2 = O\left(n^{-\frac{2r}{(2r+1)}}\right) \]

\[ \sqrt{n}(\hat{\pmb{\beta}}-\pmb{\beta}) \rightarrow N(0, \pmb{A}^{-1}\pmb{B}\pmb{A}^{-1}) \]

La prueba está en N. A. Cruz, Melo, y Martinez (2023)

Modelo propuesto

library(CrossCarry)
datosCarry <- createCarry(data = occup_hora,treatment = "Tratamiento",
                          period="Periodo",id="id",carrySimple = TRUE)
modSP = CrossGEESP(response="prop", period="Periodo",treatment = "Tratamiento",id = "id",
                   time="minute", carry=datosCarry$carryover,data=datosCarry$data,
                   family=binomial(),correlation="exchangeable")
Estimate Naive S.E. Naive z Robust S.E. Robust z
(Intercept) 0.1917 0.0153 12.4993 0.0133 14.4085
Periodo2 -0.0227 0.0155 -1.4721 0.0157 -1.4503
Periodo3 -0.0076 0.0155 -0.4887 0.0158 -0.4789
Periodo4 -0.0511 0.0155 -3.3074 0.0149 -3.4344
TratamientoB -0.0727 0.0162 -4.4892 0.0153 -4.7566
TratamientoC -0.0483 0.0162 -2.9812 0.0152 -3.1762
TratamientoD -0.0480 0.0162 -2.9595 0.0151 -3.1826

Estimadores no paramétricos

Para los efectos de arrastre

Efectos de arrastre complejos

Cuando el efecto de arrastre del tratamiento afecta de manera diferencial a cada tratamiento aplicado posteriormente

Problemas

  1. La presencia de efectos de arrastre simples es un escenario poco realista en estudios farmacológicos Biabani et al. (2018) y en estudios no farmacológicos Vegas, Apa, y Juristo (2016).

  2. Fleiss (1989) y Senn (1992) demostraron que si efectivamente está presente el efecto de arrastre complejo, se produce un mayor sesgo en la estimación de los efectos del tratamiento cuando se suponen efectos de arrastre simples para el modelo de estimación que cuando no se supone la presencia de arrastre.

  3. No hay suficientes grados de libertad en diseños crossover con una sola medición por unidad experimental por periodo para estimar efectos de arrastre complejos

\[ \ln\left(\frac{p_i}{1-p_i} \right)=\pmb{x}_{ijk}^T\pmb{\beta} + f_1(\pmb{Z}_{ijk})+ \sum_{c=2}^{13} f_c(\pmb{Z}_{ijk}) \]

¿Qué hacemos?

datosCarry <- createCarry(data = occup_hora,treatment = "Tratamiento",
                          period="Periodo",id="id",carrySimple = FALSE)

modSPCC = CrossGEESP(response="prop", period="Periodo",treatment = "Tratamiento",id = "id",
                   time="minute", carry=datosCarry$carryover,data=datosCarry$data, 
                   family=binomial(),correlation="exchangeable")
Estimate Naive S.E. Naive z Robust S.E. Robust z
(Intercept) 0.1864 0.0155 12.0310 0.0134 13.9565
Periodo2 -0.0030 0.0156 -0.1916 0.0158 -0.1891
Periodo3 0.0137 0.0156 0.8809 0.0159 0.8631
Periodo4 -0.0292 0.0156 -1.8684 0.0149 -1.9569
TratamientoB -0.0644 0.0164 -3.9351 0.0154 -4.1703
TratamientoC -0.0783 0.0164 -4.7864 0.0153 -5.1283
TratamientoD -0.0644 0.0164 -3.9358 0.0152 -4.2305

Estimadores no parámetricos

Efectos de arrastre complejos

Teorema 2

Soporte Estadístico

Los efectos de arrastre complejos de primer orden en un diseño cruzado con medidas repetidas son estimables si hay al menos 5 observaciones para cada unidad experimental dentro de cada período. La prueba está en N. Cruz, Melo, y Martinez (2024)

QIC

\[ QIC=-2\sum_{ijk}QL(\hat{\mu}_{ijk};\pmb{I})+2trace(\hat{\pmb{\Omega}}^{-1}_I\hat{\pmb{V}}_{\pmb{R}} ) \]

\[ \hat{\mu}_{ijk}=g^{-1}\left(\pmb{x}_{ijk}^T\pmb{\beta} + f(\pmb{Z}_{ijk})+ \sum _{c=1}^ C f_c(\pmb{Z}_{ijk}) \right) \]

QIC QICu Quasi Lik CIC params QICC
Simple 4417.33 4036.53 -2011.26 197.4 7 4417.47
Complejo 4395.26 4021.87 -2003.93 193.7 7 4395.40

Cosas adicionales

Datos faltantes

El paquete realiza imputación de datos faltantes mediante la metodologia EM. Más información en Martinez-Lobo, Melo, y Cruz (2024). Es un trabajo colaborativo en construcción.

Lineas bases

Cuando las lineas bases se observan al inicio del estudio, o se asume que no tienen efectos de arrastre, el paquete analiza siguiendo la metodología propuesta por Kenward y Roger (2010).

Lineas bases dinámicas

Cuando las lineas bases puede estar con efectos de arrastre, no hay metodología de analisis.
Se está trabajando en simulaciones donde se incluyan efectos de arrastre complejos, para ver la mejor forma de inclusión de las lineas bases dinámicas.

Conclusión

  1. La discusión sobre los efectos de arrastre complejos es de larga data en el campo de la estadística en la investigación clínica y humana, y hasta el momento no se tenia una metodología que permitiera estimar de manera consistente los efectos de arrastre complejos
  2. Ya existe una metodología que tiene sentido teórico y práctico para estimar efectos de arrastre complejos.
  3. El paquete CrossCarry implementa toda la metodología discutida acá.
  4. Se necesita más trabajo para programar en R las lineas bases dinámicas.

Uso del paquete

Uso del paquete

Bibliografía

Biabani, Mana, Michael Farrell, Maryam Zoghi, Gary Egan, y Shapour Jaberzadeh. 2018. «Crossover design in transcranial direct current stimulation studies on motor learning: potential pitfalls and difficulties in interpretation of findings». Reviews in the Neurosciences 29 (4): 463-73.
Cruz, NA, OO Melo, y CA Martinez. 2024. «Estimation of complex carryover effects in crossover designs with repeated measures». arXiv preprint arXiv:2402.16362.
Cruz, Nelson Alirio, Oscar Orlando Melo, y Carlos Alberto Martinez. 2023. «Semiparametric generalized estimating equations for repeated measurements in cross-over designs». Statistical Methods in Medical Research 32 (5): 1033-50. https://doi.org/10.1177/09622802231158736.
Fleiss, Joseph L. 1989. «A critique of recent research on the two-treatment crossover design». Controlled clinical trials 10 (3): 237-43.
Jankar, Jeevan, y Abhyuday Mandal. 2021. «Optimal Crossover Designs for Generalized Linear Models: An Application to Work Environment Experiment». Statistics and Applications 19 (1): 319-36.
Kenward, Michael G, y James H Roger. 2010. «The use of baseline covariates in crossover studies». Biostatistics 11 (1): 1-17.
Martinez-Lobo, DS, OO Melo, y NA Cruz. 2024. «Estimation and imputation of missing data in longitudinal models with Zero-Inflated Poisson response variable». arXiv preprint arXiv:2409.11040.
Pitchforth, Jegar, Elizabeth Nelson-White, Marc van den Helder, y Wouter Oosting. 2020. «The work environment pilot: An experiment to determine the optimal office design for a technology company». PloS one 15 (5): e0232943.
Senn, SJ. 1992. «Is the ‘simple carry-over’model useful?» Statistics in Medicine 11 (6): 715-26.
Vegas, Sira, Cecilia Apa, y Natalia Juristo. 2016. «Crossover designs in software engineering experiments: Benefits and perils». IEEE Transactions on Software Engineering 42 (2): 120-35.